案例3.2 视频教程
题目:
步骤1:在“项目模板”中找到周志华习题,打开第三章线性模型习题案例3.2,创建模板。
步骤2:在“CSV上传模块”上传data数据,一般为csv格式。这里用到的是西瓜数据4.0。
版。
步骤3:在全部组件列表搜索“标签编码”模块,拖到操作界面内,
因为上传的数据特征为“色泽 根蒂 敲声 纹理 脐部 触感”等,需要转化为数字,“标签编码(LabelEncoder)”可以通过设置“字段设置”中的“目标字段”,来把特征取值转化为数字。
依次拖出“标签编码”,在字段设置的目标字段中设置“色泽”“根蒂”“敲声”“纹理”“脐部”“触感”,即可将数据中的字符串进行编码。
步骤4:在全部组件列表中搜索“逻辑回归”LogisticRegression模块,在字段设置中输入“色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率”特征字段,标识字段为“好瓜”。参数不用改。
逻辑回归分类器 在多类情况下,multi_class选项设置为ovr,使用liblinear库,默认情况下正则化。
步骤5:在全部组件列表搜索“模型预测”模块,设置好特征字段和预测字段,输入待预测数据和经过逻辑回归训练完的模型,输出预测后的数据可直接查看。
步骤6:在全部组件列表搜索“分类评估”模块,分类评估组件,用于二分类模型预测结果的评估,在“评估指标”选项中选择accuracy_score,该函数可以计算正确预测的精度。在字段设置中的标签列输入“好瓜”,预测列为“prediction”。输出结果中的accuracy_score,true_negatives,false_positives,false_negatives,true_positives分别代表:
真阳性(True Positive,简称TP),也就是预计为真,实际上也为真的数据
假阳性(False Positive, 简称FP),也就是预计为真,但实际上为假的数据。
假阴性(False Negative, 简称FN), 也就是预计为假,但实际上为真的数据
真阴性(True Negative, 简称TN),也就是预计为假,实际上也为假的数据。